Národní úložiště šedé literatury Nalezeno 3 záznamů.  Hledání trvalo 0.01 vteřin. 
Chest X-ray Image Analysis using Convolutional Vision Transformer
Mezina, Anzhelika ; Burget, Radim
In recent years, computer techniques for clinical imageanalysis have been improved significantly, especially becauseof the pandemic situation. Most recent approaches are focusedon the detection of viral pneumonia or COVID-19 diseases.However, there is less attention to common pulmonary diseases,such as fibrosis, infiltration and others. This paper introduces theneural network, which is aimed to detect 14 pulmonary diseases.This model is composed of two branches: global, which is theInceptionNetV3, and local, which consists of Inception modulesand a modified Vision Transformer. Additionally, the AsymmetricLoss function was utilized to deal with the problem of multilabelclassification. The proposed model has achieved an AUC of 0.8012and an accuracy of 0.7429, which outperforms the well-knownclassification models.
Re-identifikace vozidel pomocí vision transformerů
Jelínek, Zdeněk ; Hradiš, Michal (oponent) ; Špaňhel, Jakub (vedoucí práce)
Hlavním cílem této práce bylo zjištění možností vision transformerů při re-identifikaci vozidel. V této oblasti počítačového vidění doposud dominují konvoluční neuronové sítě. Celkem byly vyzkoušeny dva modely - TransReID a CMT. TransReID je model založený čistě na vision transformerech a byl vytvořený přímo pro re-identifikaci vozidel. Hlavní část experimentů s tímto modelem jsem věnoval využití klíčových bodů na vozidle. Při správné extrakci oblastí okolo klíčových bodů a využití postprocessingu jsem dosáhl state-of-the-art výsledků. Model CMT je kombinací konvolučních sítí a transformerů, který nebyl vytvořen pro re-identifikaci vozidel. Model jsem upravil a provedl s ním rozsáhlé experimenty pro získání nejlepší konfigurace pro re-identifikaci vozidel. Modely jsem vyhodnotil na standardních datasetech VeRi-776, VehicleID, CityFlowV2-ReID a CarsReId74k a porovnal se state-of-the-art modely. S modelem CMT jsem dosáhl na datasetu VeRi-776 nejlepšího výsledku 0,860 na metrice mAP a na datasetu VehicleID jsem dosáhl nejlepšího výsledku 97,6% na metrice Rank5.
Emotion Recognition from Analysis of a Person’s Speech
Knutelský, Martin ; Shakil, Sadia (oponent) ; Malik, Aamir Saeed (vedoucí práce)
This thesis deals with the analysis of emotion recognition from human speech. It aims to design and implement a system that can automatically infer emotional states from speech recordings. The solution is based on the Audio Spectrogram Transformer (AST), a derivative of the Vision Transformer neural network, which accepts mel spectrogram as input. The implementation comprehends the pipeline with two stages. In the first stage, a mel spectrogram is obtained from the input speech recording and in the second stage, the pretrained AST model computes output in the form of probabilities of considered emotional classes. The AST implementation was trained and evaluated on three datasets: RAVDESS, Emo-DB and EMOVO. The obtained results in the form of unweighted accuracy are 84.5 % for RAVDESS, 91.6 % for Emo-DB and 73.8 % for EMOVO. During training, the consumed energy of the graphical processing unit was recorded for the calculation of the carbon footprint in terms of emitted CO2. The main contribution of this work is the utilization of neural network based on Transformer architecture, originally used for vision tasks, to classify emotions from speech. Another contribution is carbon footprint tracking of neural network training. The carbon footprint, expressed in emitted CO2 mass is 1058.37 grams.

Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.